加强学习(RL)代理通常通过其预期值在测试方案的分布中进行评估。不幸的是,这种评估方法为超出测试分布以外的部署后概括提供了有限的证据。在本文中,我们通过将最新的清单测试方法从自然语言处理扩展到基于计划的RL来解决此限制。具体而言,我们考虑使用学习过渡模型和价值功能通过在线树搜索做出决策的RL代理。关键思想是通过清单方法来改善对未来绩效的评估,以探索和评估树木搜索过程中代理商的推论。该方法为用户提供了界面和一般查询规则机制,用于识别潜在的推理缺陷并验证预期的推理不变。我们介绍了一项涉及知识渊博的AI研究人员的用户研究,使用该方法评估训练有素的代理商,可以玩复杂的实时策略游戏。结果表明,该方法有效地允许用户识别代理推理中以前未知的缺陷。此外,我们的分析提供了有关AI专家如何使用这种测试方法的见解,这可能有助于改善未来的实例。
translated by 谷歌翻译
解释性学者通过手动采样文档,应用代码以及将代码精炼和整理成类别,直到出现有意义的主题,从而从文本语料库中产生知识。鉴于大量的语料库,机器学习可以帮助扩展此数据采样和分析,但先前的研究表明,专家通常关注算法可能破坏或推动解释性奖学金。我们采用以人为本的设计方法来解决围绕机器辅助解释性研究的关注,以构建学术研究,该研究将机器中的集群算法纳入了脚手架解释性文本分析。随着学者将代码应用于文档和完善它们,所得编码的模式用作结构化元数据,该元数据限制了从语料库推断出的层次文档和单词簇。这些集群的交互式可视化可以帮助学者们战略性地对文档进行进一步的洞察力进行洞察力。 Scholastic证明了采用熟悉隐喻的以人为中心的算法设计和可视化如何通过交互式主题建模和文档群集来支持归纳和解释性研究方法。
translated by 谷歌翻译
混沌系统中仿真预测的准确性严重依赖于预测初始化时系统状态的高质量估计。数据同化方法用于通过系统地结合噪音,不完整的观察和系统动态的数值模型来推断这些初始条件,以产生有效的估计方案。我们介绍了摊销同化,这是一种学习的框架,用于从嘈杂的观察序列中吸收动态系统,无需基础真理数据。我们通过使用可分辨率模拟来激励来自自我监控的自我监督剥夺到动态系统设置的强大结果来激励框架。跨几台基准系统的实验结果突出了我们对广泛使用的数据同化方法的提高效果。
translated by 谷歌翻译